PDFをOCRしてScrapboxに取り込むDeno script

Scrapbox書籍を作るためのscript

Scanした紙のノートをScrapboxに取り込むUserScriptのDeno ver.

/emoji/warning.icon要tesseract & pdftoppm

機能

pdf fileを指定すると、1ページごとにscrapboxのページになるようにしたjson fileを作る

PDFのページは画像に変換してGyazoにあげる

解像度は指定可能

OCRも実行し、各ページに引用形式で書き込む

やること

予め画像化されたPDFのページをGyazoに上げて、Scrapboxのpageにしたjson fileを作る

OCRされたテキストデータが有れば、それも取り込む

やらないこと

pdfを画像に変換する

OCRをする

Denoからtesseractをうまく起動できないので断念した　

タイトルから中身が乖離してきたな……

画像ファイルとtextファイルをScrapbox import jsonに変換するDeno scriptに変えるべきか

実装

pdfの読み込みとGyazoへのupload

PDFをGyazoにあげてScrapboxに取り込むUserScriptの実装を流用する

一つづつawaitで待ってuploadするようにした

uploadの順番と、ページ番号の順番とを一致させたい

2021-01-28 00:02:26 ……これ一致させる必要あるかな？

全部一斉に送っちゃえ!

json fileにしてdownloadする

web browserから任意のデータをdownloadするscriptを使う

問題はレイアウトか。

1 pageごとにScrapbox pageに分ける

タイトル

PDFの名前 + ページ番号

\`${title} ${pageNum}\`でいいか。

メタ情報をどうやって入れる？

PDFのテキストを勝手にScrapboxに挿入できるようにするととても楽

2021-01-24 19:28:40 方法が見つからないので断念

とりあえずタイトルにノート名を入れるとして

ノート名+ページ番号

前後のページに対するリンクも貼っておく？

ノート名をhashtagでつけるだけでもいいのでは？

でも前後のリンクもあると読みやすいかtakker.icon

じゃあつけるか。

→cf.xxxのリンクが貼ってあったら、そのページへのリンクも手動で書く

2021-02-15

23:12:54 PDFの中にテキストが含まれていたら、それを引用形式で書き出すようにした

2021-01-29

19:14:27 解像度を指定できるようにした

2021-01-25

23:42:21

更新・作成日時を秒単位に直して代入するようにした

一部の関数を別ページに切り出した

known issue

Gyazo accountと結びつかない？

変だなtakker.icon

認証情報を送っていないのだから、結びつかなくて当然

uploadToGyazoEasyAuthではなくuploadToGyazoを使えば結び付けられる

interface

画像ファイルとtextファイルがあるdirectoryで実行する

ファイル名は1.png/1.txtにする

同階層にimport.jsonを作成する

実行コマンド

code:sh

deno run --allow-read --allow-write --allow-net --location https://upload.gyazo.com --unstable --reload https://scrapbox.io/api/code/takker/PDFをOCRしてScrapboxに取り込むDeno_script/mod.ts convert basename access_token

dependencies

uploadToGyazo

Scrapbox書籍のformat@0.1.0

OCRしたテキストを整形

code:mod.ts

import {cac} from 'https://unpkg.com/cac/mod.ts';

import {execute} from './script.ts';

command line argumentsの設定

code:mod.ts

const cli = cac('convert-scrapbox-json');

cli.command('convert pagename accessToken', 'page name of each scrapbox page')

.action((pagename, accessToken) => {

if (typeof accessToken !== 'string') throw Error('Specify an Gyazo access token');

execute(pagename, accessToken);

});

cli.help();

cli.version('0.0.0');

cli.parse();

画像ファイルがあるdirectoryでupload処理を行う

画像ファイルとテキストファイルのpathを取得する

code:script.ts

import {expandGlobSync} from 'https://deno.land/std@0.87.0/fs/mod.ts';

// @deno-types='../Scrapbox書籍のformat/script.d.ts'

import {convert} from '../Scrapbox書籍のformat/script.js';

// @deno-types='../OCRしたテキストを整形/script.d.ts'

import {tidy} from '../OCRしたテキストを整形/script.js';

export async function execute(filename: string, accessToken: string) {

try {

const imageURLPenings = getGyazoURLs([...expandGlobSync(*.png)]

.flatMap(({path}) => {

const name = path.match(/\/(^\/+)$/)?.1;

return name ? name : [];

})

.sort((a,b) => parseInt(a) - parseInt(b)),

filename, {accessToken});

console.log(Open OCR text files...);

const ocrTexts = [...expandGlobSync(*.txt)]

.flatMap(({path}) => {

const name = path.match(/\/(^\/+)$/)?.1;

return name ? name : [];

})

.sort((a,b) => parseInt(a) - parseInt(b))

.map((path, i) => {

const text = Deno.readTextFileSync(path);

// OCRしたテキストは、事前に整形しておく

return tidy(text, {removeBracket: true})

.split(/\n/).flatMap(line => line.trim() === '' ? [] : line).join('\n');

});

console.log(Opened ${ocrTexts.length} OCR text files.);

const imageURLs = await imageURLPenings;

JSONデータを作る

code:script.ts

const json = {

pages: imageURLs.map(({url, index}) => convert(filename, url, index, {

start: index === 1,

end: index === imageURLs.length,

text: ocrTextsindex - 1,

})),

};

JSONデータを保存する

code:script.ts

const output = 'output.json';

console.log(Writing to ${output}...);

await Deno.writeTextFile(output, JSON.stringify(json));

console.log('Successfully finished.');

} catch(e) {

console.error(e);

}

画像ファイルを開いてGyazoにuploadし、URLを取得する

serverの負荷を減らすために、10枚ずつuploadする

code:script.ts

// @deno-types='../uploadToGyazo/script.d.ts'

import {uploadToGyazo} from '../uploadToGyazo/script.js';

async function getGyazoURLs(pathes: string[], fileName: string, {accessToken}: {accessToken: string}) {

const URLs: {url: string, index: number}[] = [];

const chunk = 10;

let retryPathes: {path: string, index: number}[] = [];

const max = Math.floor(pathes.length / chunk) + 1;

for (let i = 0; i < max; i++) {

const pendings = pathes.slice(i * chunk, (i + 1) * chunk)

.map(async (path, j) => {

const index = i * chunk + j + 1;

try {

console.log([page ${index}] Open "${path}"...);

const buffer = await Deno.readFile(path);

const image = new Blob(buffer, {type: 'image/png'});

console.log([page ${index}] Opened.);

console.log([page ${index}] Uploading "${path}" to Gyazo...);

const {permalink_url} = await uploadToGyazo(image, accessToken, {title: ${fileName} ${index}});

console.log([page ${index}] Success., permalink_url);

URLs.push({url: permalink_url, index});

} catch(e) {

console.error([page ${index}] Faild to upload:, e);

console.error([page ${index}] Retry later.);

retryPathes.push({path, index});

}

});

await Promise.all(pendings);

}

// 送信に失敗した画像を送信し直す

while (retryPathes.length > 0) {

const {path, index} = retryPathes.pop()!;

try {

console.log([page ${index}] Open "${path}"...);

const buffer = await Deno.readFile(path);

const image = new Blob(buffer, {type: 'image/png'});

console.log([page ${index}] Opened.);

console.log([page ${index}] Uploading "${path}" to Gyazo...);

const {permalink_url} = await uploadToGyazo(image, accessToken, {title: ${fileName} ${index}});

console.log([page ${index}] Success., permalink_url);

URLs.push({url: permalink_url, index});

} catch(e) {

console.error([page ${index}] Faild to upload:, e);

console.error([page ${index}] Retry later.);

retryPathes.push({path, index});

}

return URLs;

}

Deno.readFile()でWSLのファイルを開けない？

code:test1.ts

const filename = Deno.args0;

const buffer = await Deno.readFile(filename);

console.log(buffer);

2021-03-02 16:56:26 いや、読めてるな。

非同期にアクセスしたのが問題か？

2個づつアクセスしたらどうだろう？

code:test2.ts

const filenames = Deno.args;

const buffers = await Promise.all(filenames.map(filename => Deno.readFile(filename)));

console.log(buffers);

17:00:03 2個読めた

17:00:50 6個読めた

17:01:25 10個読めた！

とすると、同時に読み込んだのが原因ではない……

WSLのフルパス/mnt/c/...を認識できなかったのかな？

では相対パスで読み込んでみよう。

17:12:32 大量にすべての画像ファイルを一気に読み込んでいたのが問題だった

あっという間に16GBのメモリを食い尽くしたから、おかしいと思ったんだ

PDFをOCRしてScrapboxに取り込むDeno script#6038a0a31280f00000434115の*.pngを*.txtに書き換えるのを忘れてた

17:22:16 どうやら数百個のファイル読み込みを一度に指示すると、途中までしか成功しないようだ時間がかかるようだ

text fileの方は、同期で読み込むようにしよう

#2021-03-02 12:59:01

#2021-03-01 15:02:42

#2021-02-26 01:28:47

#2021-02-16

#2021-02-15 23:13:34

#2021-01-29 19:21:20

#2021-01-28 01:43:42

#2021-01-25 23:56:12

#2021-01-24 19:20:55